標簽【Q learning】 - 碼上歡樂

接下來我們回顧一下動態規划算法(DP)和蒙特卡羅方法(MC)的特點，對於動態規划算法有如下特性：需要環境模型，即狀態轉移概率\(P_{sa}\) 狀態值函數的估計是自舉的(bootstr ...